온톨로지_02_온톨로지와 지식 그래프&LLM
1. 온톨로지는 AI 시대에도 사라지지 않았다
한동안은 온톨로지를 낡은 시맨틱 웹 유산처럼 보는 시선이 강했다. 요즘은 오히려 반대다. LLM이 지식을 잘 말하게는 만들었지만, 그 지식을 구조화하고 검증하고 다시 추론 가능한 형태로 고정하는 문제는 여전히 남아 있기 때문이다.
이 지점에서 온톨로지가 다시 중요해진다. LLM은 후보 관계를 제안하고, 용어를 묶고, 초안을 빠르게 만드는 데는 강하다. 하지만 일관성을 스스로 보장하지는 못한다. 특히 여러 문서와 엔티티를 오가며 관계를 정리할 때는 더 그렇다. 그럴듯한 문장과 검증 가능한 구조는 다른 문제다.
그래서 최근 흐름은 "LLM이 온톨로지를 대체한다"보다 "LLM 출력을 어떤 온톨로지와 제약 위에서 통제할 것인가" 쪽으로 이동하고 있다. 온톨로지는 생성의 경쟁자가 아니라, 생성 결과를 묶고 확인하는 기준에 더 가깝다.
2. 지식 그래프와 온톨로지의 결합
지식 그래프는 사실과 관계를 담는다. 누가 누구와 연결되는지, 어떤 문서가 어떤 개체를 설명하는지, 어떤 사건이 어떤 시간과 장소에 묶이는지 같은 것을 그래프 형태로 쌓는다. 문제는 그래프만으로는 의미가 충분히 고정되지 않는다는 점이다.
예를 들어 worksFor 같은 관계 하나만 봐도, 사람을 조직에 연결하는 것인지, 프로젝트를 조직에 연결하는 것인지, 과거 관계도 포함하는지, 복수 소속이 가능한지 같은 조건이 달라질 수 있다. 그래프는 관계를 저장할 수 있지만, 그 관계가 정확히 무엇을 뜻하는지는 온톨로지 쪽에서 더 또렷하게 잡아 줘야 한다.
그래서 지식 그래프를 제대로 쓰려면 온톨로지가 같이 붙는다. 좋은 온톨로지가 있으면 그래프의 타입이 덜 흔들리고, 관계 제약이 선명해지고, 추론 결과도 더 안정된다. 반대로 온톨로지 없이 그래프만 커지면, 데이터는 많아도 해석이 서로 어긋날 가능성이 커진다.
이 감각을 대중적으로 보여 준 대표 사례가 구글의 Knowledge Graph다.
"things, not strings"
구글이 이 표현을 쓴 이유는 검색어를 단순한 문자열로 보지 않고, 실제 세계의 개체와 관계로 읽으려 했기 때문이다.Taj Mahal을 검색했을 때 건축물인지 음악가인지 구분하고, 특정 인물의 검색 결과에서 관련 인물과 작품, 장소를 함께 묶어 보여 주는 방식이 그 예다. 지식 그래프가 검색 품질을 끌어올린다는 말은 결국 더 많은 문서를 긁어왔다는 뜻이 아니다. 문자열 매칭을 넘어서, 검색 대상을 "무엇"으로 해석하기 시작했다는 뜻에 가깝다.
3. RAG와 온톨로지는 경쟁하지 않는다
RAG는 관련 문서를 찾아 붙이는 데 강하다. 질문과 가까운 조각을 가져와서 현재 응답에 쓰게 하는 방식이기 때문이다. 그래서 최신 문서를 반영하거나, 외부 지식을 빠르게 붙일 때는 RAG가 매우 강하다.
하지만 RAG만으로는 용어 정합성, 타입 제약, 관계의 방향성 같은 문제가 자동으로 해결되지는 않는다. 문서를 찾는 것과 의미를 고정하는 것은 다른 일이다. 예를 들어 같은 용어가 서로 다른 문서에서 다르게 쓰일 때, RAG는 둘 다 가져올 수 있지만 어느 쪽이 같은 개념이고 어느 쪽이 다른 개념인지를 스스로 안정적으로 정리하지는 못한다.
그래서 온톨로지는 RAG의 대체재라기보다, 의미 정합성과 제약이 중요한 RAG에서는 상위 설계 도구가 될 수 있다. RAG가 어떤 문서를 가져와야 하는지, 같은 개체를 어떻게 묶어야 하는지, 어떤 관계는 허용되고 어떤 관계는 틀렸는지를 정하는 기준이 된다. 최근에 온톨로지가 다시 AI 문맥에서 읽히는 이유도 여기에 있다.
4. LLM은 어디까지 잘하고 어디서 멈추는가
LLM은 온톨로지 작업에서 분명히 쓸모가 있다. 후보 관계를 뽑아내고, 개체를 매핑하고, 용어 초안을 정리하고, 지식 그래프 생성을 보조하는 데는 속도가 빠르다. 사람이 처음부터 손으로 다 적는 것보다 훨씬 빠르게 출발점을 만든다.
문제는 그다음이다. 초안을 잘 만드는 것과 품질을 보장하는 것은 다르다. LLM은 일관성이 약하고, 같은 개념을 다른 이름으로 반복하거나, 실제로는 맞지 않는 관계를 그럴듯하게 제안할 수 있다. 특히 기준 온톨로지가 불안정하거나 검증 규칙이 없으면 이 문제가 커진다.
그래서 최근 연구들이 강조하는 것도 비슷하다. LLM은 온톨로지 엔지니어링을 대체하기보다 가속한다. 속도를 주지만, 의미의 검증은 대신하지 못한다. 이걸 놓치면 온톨로지 작업이 빨라지는 대신 더 불안정해질 수 있다.
5. 지금 온톨로지를 공부하는 이유
온톨로지는 지금 AI에서 다시 읽을 가치가 있는 주제다. LLM이 지식을 잘 말하게 만들수록, 그 지식을 어떤 구조로 묶고 어떤 제약으로 검증할지의 문제가 더 크게 돌아오기 때문이다.
지식 그래프를 쓸 때도 그렇고, RAG를 설계할 때도 그렇고, 에이전트가 여러 시스템을 오가며 의미를 유지해야 할 때도 그렇다. 결국 부딪히는 건 "이 말이 정확히 무엇을 뜻하는가", "이 관계는 허용되는가", "이 개체와 저 개체는 같은가" 같은 질문이다. 온톨로지는 바로 그 질문을 문장 감각이 아니라 규칙으로 다루게 해 준다.
그래서 온톨로지는 AI 이전의 유산이 아니다. AI가 커질수록 다시 필요한 의미의 뼈대에 가깝다. 생성이 빨라질수록 검증이 중요해지고, 문서가 많아질수록 의미의 일관성이 더 중요해진다. 그때 온톨로지는 지식을 더 많이 만들기 위한 기술이 아니라, 지식을 덜 헷갈리게 만들기 위한 기술로 다시 돌아온다.
참고 자료
- Google. Introducing the Knowledge Graph: things, not strings. https://blog.google/products-and-platforms/products/search/introducing-knowledge-graph-things-not/
- Ma, X. et al. Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities. EMNLP 2025. https://aclanthology.org/2025.emnlp-main.1249/
- Sui, Z. et al. Can Knowledge Graphs Make Large Language Models More Trustworthy? ACL 2025. https://aclanthology.org/2025.acl-long.622/
- HyDRA: A Hybrid-Driven Reasoning Architecture for Verifiable Knowledge Graphs. 2025-07. https://arxiv.org/abs/2507.15917
- Large language models for intelligent RDF knowledge graph construction: results from medical ontology mapping. 2025. https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1546179/full